AI资讯新闻榜单内容搜索-LLM

北航等机构发布最新综述：大语言模型集成 | ArXiv 2025

LLM Ensemble（大语言模型集成）在近年来快速地获得了广泛关注。它指的是在下游任务推理阶段，综合考虑并利用多个大语言模型（每个模型都旨在处理用户查询），从而发挥它们各自的优势。大语言模型的广泛可得性，以及其开箱即用的特性和各个模型所具备的不同优势，极大地推动了 LLM Ensemble 领域的发展。

来自主题: AI技术研报

8741 点击 2025-06-17 17:03

技术Blog-4 | 新一代InfLLM：可训练的稀疏注意力机制

本文深入剖析 MiniCPM4 采用的稀疏注意力结构 InfLLM v2。作为新一代基于 Transformer 架构的语言模型，MiniCPM4 在处理长序列时展现出令人瞩目的效率提升。传统Transformer的稠密注意力机制在面对长上下文时面临着计算开销迅速上升的趋势，这在实际应用中造成了难以逾越的性能瓶颈。

来自主题: AI技术研报

7717 点击 2025-06-16 15:24

专治不服！Amazon重磅发布！AI的SOP高考来了！顶级Agent能考几分？

您可能会问，LLM Agent的SOP到底是什么，为什么称它为AI的高考？SOP全称是标准操作程序（Standard Operating Procedures）很多朋友可能很熟悉，但它绝不是简单的步骤清单——它更像是AI能否在工业环境中真正"上岗"的终极考验。

来自主题: AI技术研报

7266 点击 2025-06-13 11:35

大模型强化学习新突破——SPO新范式助力大模型推理能力提升！

当前，强化学习（RL）在提升大语言模型（LLM）推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。

来自主题: AI技术研报

7337 点击 2025-06-09 11:02

李飞飞对话 a16z：LLM 是有损压缩，世界模型才是真正重要方向，应用远超机器人

World Labs 是由著名 AI 专家、斯坦福大学教授李飞飞于 2024 年创办的初创公司，致力于开发具备“空间智能”的下一代 AI 系统。

来自主题: AI资讯

5810 点击 2025-06-05 16:23

MetaMind元认知多智能体，让LLM理解对话背后的深层意图，首次达到人类水平 | 最新

MetaMind是一个多智能体框架，专门解决大语言模型在社交认知方面的根本缺陷。传统的 LLM 常常难以应对现实世界中人际沟通中固有的模糊性和间接性，无法理解未说出口的意图、隐含的情绪或文化敏感线索。MetaMind首次使LLMs在关键心理理论(ToM)任务上达到人类水平表现。

来自主题: AI技术研报

9906 点击 2025-05-29 10:31

准确率92.7%逼近Claude 3.5、成本降低86%，开源代码定位新神器LocAgent来了

又是一个让程序员狂欢的研究！来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架，直接把代码定位准确率拉到了 92.7% 的新高度。该研究已被 ACL 2025 录用。

来自主题: AI技术研报

6958 点击 2025-05-29 10:03

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

随着大语言模型（LLM）能力的快速迭代，传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征，例如价值观、性格和社交智能？如何建立更全面、更可靠的 AI 评估体系？北京大学宋国杰教授团队最新综述论文（共 63 页，包含 500 篇引文），首次尝试系统性梳理答案。

来自主题: AI技术研报

9059 点击 2025-05-27 16:13

微软副总裁X上「开课」，连更关于RL的一切，LLM从业者必读

别人都在用 X 发帖子，分享新鲜事物，微软副总裁 Nando de Freitas 却有自己的想法：他要在 X 上「开课」，发布一些关于人工智能教育的帖子。该系列会从 LLM 的强化学习开始，然后逐步讲解扩散、流匹配，以及看看这些技术接下来会如何发展。

来自主题: AI资讯

9202 点击 2025-05-26 17:18

只用图像也能思考，强化学习造就推理模型新范式！复杂场景规划能力Max

近年来，LLM 及其多模态扩展（MLLM）在多种任务上的推理能力不断提升。然而，现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介，即便是在处理视觉信息时也是如此。

来自主题: AI技术研报

7917 点击 2025-05-26 09:59